Instalar kagglehub
importa kaggle, pandas y numpy , y descargar data
unir data_frame
leer un archivo csv, ya descargado, e imprimir la cabeza (primero 5 elementos)
mostrar las primeras 5 filas
mostrar las últimas 5 lineas
para describir la data, muestra un resumen del dataset solo en las variables numericas
muestra una lista con todas las columnas que tiene el data frame
esto sirve para hacer consultas especificas del dataframe
realizar consulta para datos cualitativos
las filas determinadas
columnas específicas de una dataframe
otra forma es con la estructura iloc, pero no dando nombres sino posiciones 8recordar que la primera posicion es filas las demas columnas)
columnas determinadas y filas determinadas (estas ultimas son las primeras)
las columnas con nombres y no por posicion, desde una a otra
otra forma de consultar, parecido al query
cambiar el nombre de una columna
borrar columnas
agregar una nueva columna o modificarla
obtener muestras aleatorias (usos testing)
agrupar datos determinados y bajo una medida
elementos unicos de cada columna
hacer limpieza de datos
dibujar un diagrama de barras * px.bar(...): Crea un gráfico de barras. * x=top10_job_title.index: Usa los títulos de trabajo (índices de la serie) como el eje X. * y=top10_job_title.values: Usa la cantidad de veces que aparecen los títulos como eje Y. * color=top10_job_title.index: Asigna diferentes colores a cada categoría (título de trabajo). * color_discrete_sequence=px.colors.sequential.PuBuGn: Usa una paleta de colores predefinida (PuBuGn). * text=top10_job_title.values: Muestra los valores sobre las barras. * title='2.1.2. Top 10 Job Titles': Agrega un título al gráfico. * template='plotly_dark': Usa un tema oscuro para el diseño.
El método update_layout() se usa para modificar el diseño del gráfico. Aquí está lo que hace cada argumento: * xaxis_title="Job Titles" : Cambia el título del eje X a "Job Titles" (Títulos de Trabajo). y Este eje representa las categorías (diferentes títulos de trabajo). *yaxis_title="count" : Cambia el título del eje Y a "count" (Cantidad). Este eje muestra la frecuencia de cada título de trabajo en los datos. * font=dict(size=17, family="Franklin Gothic") Ajusta el tamaño y la fuente del texto en el gráfico. size=17: Aumenta el tamaño del texto a 17 puntos. family="Franklin Gothic": Usa la fuente "Franklin Gothic" para los textos.
vamos a construir un digrama de lineas por cada variable cuantitativa, sirve para ver el comportramiento de una variable en el tiempo
distribución normal
distribución normal de los datos
la correlacción entre los datos, sirve para revisar la relacion de los datos
los espacios en blanco son nulos
Ya vimos que si aplicamos una regresión lineal no será el mejor de los resultados, porque analizamos con solo variables cuantitativas, ahora vamos a medir con variables cualitativas de caracter ordinal (la unica que se puede). Entonces tenemos que convertir datos categoricos en números.
pronto vamos a almacenar la data que se esta limpiando, entonces eliminamos las columnas que no aportan a la data
Vamos creando la data que vamos a medirsacar solo las columnas numericas
análisis de correlación
Ya vimos algo que cambio... vamos a agregar mas elementos a ver si se modifica Revisemos si asociar los empleos pueden jugar un papel importante
ahora vamos a reemplazar los valores en el df
obtener solo data numerica
de nuevo, análisis de correclación
NO cambio, toca aplicar oneHOtEncodeng
Partir la data en sets de entranamiento y prueba 80% para entrenar el modelo 20% para evaluar su desempeño
Vamos a guardar los 3 modelos y luego la mejor data